مقاوم سازی بازشناسی گفتار با اعمال پردازش زیرباندی

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق
  • نویسنده حجت اله یگانه
  • استاد راهنما محمد احدی
  • تعداد صفحات: ۱۵ صفحه ی اول
  • سال انتشار 1387
چکیده

در این پروژه مقاوم سازی بازشناسی گفتار در محیط های نویزی بر مبنای پردازش زیرباندی بررسی شده است. مقاوم سازی بازشناسی گفتار یکی از مسائل مهم در این حوزه می باشد که کار بر روی ان همچنان ادامه دارد. از روش های گوناگونی به منظور تحقق یافتن این مهم استفاده می شود و ایده های متنوعی نیز در مقالات و تحقیقات ارائه می گردند. عیب عمده اکثر روشهای پیشهاد شده پیچیدگی زیاد و سرعت کم الگوریتم های آن است. ما در این رساله تلاش نموده ایم به ارائه روش هایی بپردازیم که عیوب مذکور را در حد بسیار کمتری داشته باشند و در عین حال هدف ما را که همان افزایش دقت بازشناسی گفتار در محیط های نویزی است محقق سازند. از این رو در ابتدا با بررسی روند استخراج ویژگی های مطرح mfcc سعی نمودیم عیب این بردار ویژگی را برطرف نماییم. دلیل این امر آن است که بردار ویژگی mfcc دارای الگوریتم بسیار ساده و سریعی است و در محیط های عاری از نویز یا به اصطلاح تمیز از دقت بازشناسی خیلی خوبی برخوردار است.بنابراین اگر بتون الگوریتمی پیشنهاد نمود که ساختاری شبیه mfcc داشته باشد و در عین حال بردار ویژگی حاصل نسبت به نویز محیط مقاوم تر نشان دهد، این روش از امتیاز بالایی برخوردار می گردد. با دنبال کردن روند استخراج ویژگی mfcc به این مسئله پی می بریم که برای به دست آمدن هر کدام از مولفه های این بردار، تمام طیف یک فریم در محاسبه تاثیر دارد. این بدان معنی است که آلوده بودن نواحی خاصی از طیف به تمام بردار mfcc سرایت می کند و کارایی این بردار ویژگی را به شدت پایین می آورد. روند کلی ایده های پیشنهادی ما حول دو گام اصلی قابل بیان است. در ابتدا سعی بر آن داریم تا با فیلتر کردن سیگنال گفتار در حوزه زیرباندی میزان تاثیر نویز را کم کنیم. در ادامه و در گام دوم با اعمال وزن بر خروجی زیرباندهای حوزه مل میزان مشارکت زیرباندهای با کیفیت تر را در به دست آوردن ویژگی های پیشنهادی خود بیشتر نموده و از تاثیر زیرباندهای با کیفیت کمتر می کاهیم. نتایج آزمایش های ما نشان دادند که تا حد خیلی خوبی به اهداف اصلی خود رسیده ایم. الگوریتم های پیشنهادی ما در عین حالی که ساده هستند در محیط های نویزی بسیار مقاوم می باشند. مقایسه روشهای پیشنهادی با روش های مطرح دیگر بر این مطلب صحه می گذارد. روش های ارائه شده منجر به بهبود 32 درصد روش پایه شده است.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

مقاوم سازی سیستم بازشناسی گفتار پیوسته

دقت سیستم¬های بازشناسی گفتار در محیط¬های آزمایشگاهی و کنترل شده به میزان قابل قبولی افزایش یافته و امروزه شاهد استفاده از این سیستم¬ها در محیط¬های واقعی هستیم. با این حال، کارایی این سیستم¬ها در حضور نویز به دلیل عدم تطابق بین شرایط و محیط آموزشی و آزمون به شدت افت می¬کند. علاوه بر این، تنوع مشخصه¬های گفتاری گویندگان نیز بر کارایی این سیستم¬ها تاثیرگذار است. در سال¬های اخیر، عمده پژوهش¬های صورت...

اعمال روشهای بهبود گفتار به عنوان پیش پردازش جهت بالا بردن دقت بازشناسی گفتار فارسی

کارایی سیستمهای بازشناسی در حضور نویز کاهش می یابد. در این پایان نامه روشهای مقاوم کردن سیستم بازشناسی در برابر نویز دسته بندی شده و از بین آنها روشهای مبتنی بر داه بررسی می شود. روشهای مختلف تفاضل طیف ، جبران کپسترال، نگاشت ضرایب و روشهای مبتنی بر ویژگیهای مقاوم تحلیل شده اند. یک رابطه جدید برای تسطیح نویز در تفاضل طیف و یک لیفتر جبران کننده برای وزندهی ضرایب کپسترال پیشنهاد شده است . همچنین ا...

15 صفحه اول

بازشناسی اعمال انسان با رویکرد مقاوم سازی دسته بند تفکیکی

با توجه به گسترش روزافزون داده های ویدئویی، تحلیل و فهم خودکار محتوای داده های ویدئویی از اهمیت بیشتری برخودار گشته است. از میان کاربردهای متنوع فهم ویدئو، مواردی که به تحلیل حرکات و اعمال انسان می پردازند از توجه ویژه ای برخوردار شده اند. عوامل گوناگونی مانند تغییرات نوری و انسداد منجر به استخراج ویژگی های نامناسب می شود. از طرف دیگر انجام یک عمل به گونه های متفاوت باعث پدید آمدن نمونه های پَرت...

مقاوم سازی بازشناسی گفتار برمبنای سیستم شنیداری انسان

در این پایان نامه، یک الگوریتم استخراج ویژگی جدید را معرفی می کنیم که pncc نامیده می شود و مبتنی بر سیستم شنیداری انسان می باشد. ویژگیهای جدید pncc شامل یک غیر خطی قانون توان است که جایگزین غیر خطی لگاریتمی استفاده شده در mfcc شده است، و همچنین شامل یک الگوریتم جدید برای حذف تحریک پس زمینه-با استفاده از تخمین توان با طول متوسط مبتنی بر نسبت میانگین حسابی به میانگین هندسی-و همچنین کاهش توان پس ز...

15 صفحه اول

روشی جدید در بازشناسی مقاوم گفتار مبتنی بر دادگان مفقود با استفاده از شبکه عصبی دوسویه

Performance of speech recognition systems is greatly reduced when speech corrupted by noise. One common method for robust speech recognition systems is missing feature methods. In this way, the components in time - frequency representation of signal (Spectrogram) that present low signal to noise ratio (SNR), are tagged as missing and deleted then replaced by remained components and statistical ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023